Retentive Network
本研究では、大規模言語モデルのための基礎アーキテクチャとして、学習並列性、低コスト推論、高性能を同時に実現する再帰ネットワーク(RetNet)を提案する。我々は、再帰と注意の関係を理論的に導出する。そして、並列、リカレント、チャンクワイズリカレントという3つの計算パラダイムをサポートする、シーケンスモデリングのためのリテンションメカニズムを提案する。具体的には、並列表現は学習の並列性を可能にする。リカレント表現では、低コストでO(1)推論が可能であり、性能を犠牲にすることなく、デコードスループット、レイテンシ、GPUメモリを向上させることができる。言語モデリングに関する実験結果は、RetNetが良好なスケーリング結果、並列学習、低コスト展開、効率的な推論を達成することを示している。この興味深い特性により、RetNetは大規模言語モデルのためのTransformerの強力な後継となる。 1. パラメータ数だけメモリや計算量を食うのは同じなので、別に LLM を動かすのが簡単になるわけではない
2. 学習にパラメータスケールのリソース(計算量、NW)が使われるのは同じ。ただし、7-8倍くらい高速な可能性がある。
総じて、コンテキスト長に対する推論時の課題がおおむね解決する感じ。
他は完全解決してるわけではないから、全てが塗り替わるゲームチェンジャーではないと思ったほうが安全そう (とはいえめっちゃすごい)
エコシステムは llama.cpp も含めて transformer が強いので、全体が移行するには多少適応の時間がかかりそう